Depth estimation is usually ill-posed and ambiguous for monocular camera-based 3D multi-person pose estimation. Since LiDAR can capture accurate depth information in long-range scenes, it can benefit both the global localization of individuals and the 3D pose estimation by providing rich geometry features. Motivated by this, we propose a monocular camera and single LiDAR-based method for 3D multi-person pose estimation in large-scale scenes, which is easy to deploy and insensitive to light. Specifically, we design an effective fusion strategy to take advantage of multi-modal input data, including images and point cloud, and make full use of temporal information to guide the network to learn natural and coherent human motions. Without relying on any 3D pose annotations, our method exploits the inherent geometry constraints of point cloud for self-supervision and utilizes 2D keypoints on images for weak supervision. Extensive experiments on public datasets and our newly collected dataset demonstrate the superiority and generalization capability of our proposed method.
translated by 谷歌翻译
近年来,骑车服务的越来越重要表明,有必要研究骑车需求的关键决定因素。然而,关于骑乘需求决定因素的非线性效应和空间异质性,知之甚少。这项研究采用了可解释的基于基础学习的分析框架,以确定塑造骑车需求并在各种空间环境(机场,市区和社区)探索其非线性关联的关键因素。我们在芝加哥使用骑车旅行数据进行实证分析。结果表明,建筑环境的重要性在空间环境中各不相同,并且在预测对机场旅行的乘车需求方面共同贡献了最大的重要性。此外,建筑环境对骑车需求的非线性影响显示出强烈的空间变化。骑车需求通常对市区旅行的建筑环境变化最有反应,然后进行邻里旅行和机场旅行。这些发现提供了运输专业人员的细微见解,以管理骑车服务。
translated by 谷歌翻译
在3D人类姿势估计任务中存在挑战性问题,例如由遮挡和自我封闭引起的性能差。最近,IMU-Vision传感器融合被认为对于解决这些问题很有价值。但是,先前关于IMU和视觉数据的融合的研究(异质性)无法充分利用IMU原始数据或可靠的高级视觉功能。为了促进更有效的传感器融合,在这项工作中,我们提出了一个在参数人运动模型下的框架,称为\ emph {fusepose}。具体而言,我们汇总了IMU或视觉数据的不同信息,并引入了三种独特的传感器融合方法:NaiveFuse,Kinefuse和AdadeEpfuse。 NaiveFuse服务器是一种基本方法,仅融合简化的IMU数据并估计欧几里得空间中的3D姿势。在运动学空间中,KineFuse能够将校准和对齐的IMU原始数据与转换后的3D姿势参数集成在一起。 AdadeEpfuse进一步将这种运动学融合过程发展为一种适应性和端到端的训练方式。进行消融研究的综合实验表明了所提出的框架的合理性和优越性。与基线结果相比,3D人姿势估计的性能得到了提高。在Total Capture数据集上,KineFuse超过了先前的最新技术,该最新仅用于测试8.6 \%。 AdadeEpfuse超过了最新的,该技术使用IMU进行培训和测试的最新时间为8.5 \%。此外,我们通过对人类360万数据集的实验来验证框架的概括能力。
translated by 谷歌翻译
使用深网的Visual Place识别(VPR)已达到最先进的性能。但是,他们中的大多数都需要采用地面真相传感器姿势的培训,以获取每个观察的空间邻里的正面和负面样本,以进行监督学习。当不可用的信息不可用时,尽管我们发现其性能次优训练,但可以利用从顺序收集的数据流中的时间社区进行自我监督训练。受嘈杂的标签学习的启发,我们提出了一个名为\ textit {tf-vpr}的新颖的自我监督框架,该框架使用时间社区和可学习的特征邻域来发现未知的空间社区。我们的方法遵循一个迭代训练范式,该范式在以下方面交替:(1)与数据增强的表示学习,(2)正设置扩展以包括当前的特征空间邻居,以及(3)通过几何验证进行正面集合。我们在模拟数据集和真实数据集上进行了全面的实验,将RGB图像或点云作为输入进行。结果表明,我们的方法在召回率,稳健性和标题多样性方面优于我们的基准,这是我们为VPR提出的新型指标。可以在https://ai4ce.github.io/tf-vpr/上找到我们的代码和数据集。
translated by 谷歌翻译
高阶交互事件在现实世界应用中很常见。从这些事件中编码参与者的复杂关系的学习嵌入在知识挖掘和预测任务中至关重要。尽管现有方法取得了成功,例如泊松张量分解,它们忽略了数据基础的稀疏结构,即发生的相互作用远小于所有参与者之间可能的相互作用。在本文中,我们提出了稀疏高阶交互事件(NESH)的非参数嵌入。我们杂交稀疏的超图(张量)过程和一个基质高斯过程,以捕获相互作用中的渐近结构稀疏性和参与者之间的非线性时间关系。我们证明了稀疏性比的强渐近边界(包括较低和上限),这揭示了采样结构的渐近特性。我们使用批界规范化,破坏性结构和稀疏的变分GP近似来开发有效的,可扩展的模型推理算法。我们在几个现实世界应用中证明了方法的优势。
translated by 谷歌翻译
FreeSpace检测是自动驾驶技术的重要组成部分,并且在轨迹计划中起着重要作用。在过去的十年中,已证明基于深度学习的自由空间检测方法可行。但是,这些努力集中在城市道路环境上,由于缺乏越野基准,很少有针对越野自由空间检测专门设计的深度学习方法。在本文中,我们介绍了ORFD数据集,据我们所知,该数据集是第一个越野自由空间检测数据集。数据集收集在不同的场景(林地,农田,草地和乡村),不同的天气条件(阳光,多雨,雾气和雪地)以及不同的光线条件(明亮的光线,日光,暮光,黑暗)中,完全包含12,198 LIDAR点云和RGB图像对与可穿越的区域,不可传输区域和无法达到的区域进行了详细注释。我们提出了一个名为Off-NET的新型网络,该网络将变压器体系结构统一以汇总本地和全球信息,以满足大型接收领域的自由空间检测任务的要求。我们还向动态融合激光雷达和RGB图像信息提出了交叉注意,以进行准确的越野自由空间检测。数据集和代码可公开可用athttps://github.com/chaytonmin/off-net。
translated by 谷歌翻译
多语言预训练的语言模型在跨语言任务上表现出了令人印象深刻的表现。它极大地促进了自然语言处理在低资源语言上的应用。但是,当前的多语言模型仍然有些语言表现不佳。在本文中,我们提出了Cino(中国少数族裔训练的语言模型),这是一种用于中国少数语言的多语言预训练的语言模型。它涵盖了标准的中文,Yue中文和其他六种少数民族语言。为了评估多语言模型在少数族裔语言上的跨语性能力,我们从Wikipedia和新闻网站收集文档,并构建两个文本分类数据集,WCM(Wiki-Chinese-Minority)和CMNEWS(中国最少的新闻)。我们表明,Cino在各种分类任务上的表现明显优于基准。Cino模型和数据集可在http://cino.hfl-rc.com上公开获得。
translated by 谷歌翻译
迄今为止,迄今为止,众所周知,对广泛的互补临床相关任务进行了全面比较了医学图像登记方法。这限制了采用研究进展,以防止竞争方法的公平基准。在过去五年内已经探讨了许多新的学习方法,但优化,建筑或度量战略的问题非常适合仍然是开放的。 Learn2reg涵盖了广泛的解剖学:脑,腹部和胸部,方式:超声波,CT,MRI,群体:患者内部和患者内部和监督水平。我们为3D注册的培训和验证建立了较低的入境障碍,这帮助我们从20多个独特的团队中汇编了65多个单独的方法提交的结果。我们的互补度量集,包括稳健性,准确性,合理性和速度,使得能够独特地位了解当前的医学图像登记现状。进一步分析监督问题的转移性,偏见和重要性,主要是基于深度学习的方法的优越性,并将新的研究方向开放到利用GPU加速的常规优化的混合方法。
translated by 谷歌翻译
基于稀疏的代表的分类(SRC)通过将识别问题作为简单的线性回归问题铸造了很多关注。然而,SRC方法仍然仅限于每类别的足够标记的样本,不充分使用未标记的样本,以及表示的不稳定性。为了解决这些问题,提出了一种未标记的数据驱动的逆投影伪全空间表示的基于空间表示的分类模型,具有低级稀疏约束。所提出的模型旨在挖掘所有可用数据的隐藏语义信息和内在结构信息,这适用于少量标记的样本和标记样本与正面识别中的未标记样本问题之间的比例不平衡。引入了混合的高斯Seidel和Jacobian Admm算法来解决模型。分析了模型的收敛性,表示能力和稳定性。在三个公共数据集上的实验表明,所提出的LR-S-PFSRC模型达到稳定的结果,特别是对于样品的比例不平衡。
translated by 谷歌翻译
预测短期交互会话的下一个交互是基于会话的推荐中的一个具有挑战性的任务。几乎所有现有的作品都依赖于项目转换模式,并在建模用户偏好时忽略用户历史会话的影响,这通常会导致非个性化推荐。此外,基于现有的个性化会话的推荐人仅基于当前用户的会话捕获用户首选项,而是忽略来自其他用户的历史会话的有用物品转换模式。为了解决这些问题,我们提出了一种新颖的异构全球图形神经网络(HG-GNN)以以微妙的方式利用所有会话的物品过渡,以便更好地推断用户偏好与当前和历史会话。为了有效利用所有用户的所有会话转换,我们提出了一种新的异构全局图,该图包含会话,用户项交互和全局共同发生项目的项目转换。此外,为了综合地从会话中捕获用户偏好,我们建议通过两个图形增强偏好编码器学习来自全局图的两个用户表示。具体地,我们在异构全球图上设计一种新的异构图形神经网络(HGNN),以了解具有丰富语义的长期用户偏好和项目表示。基于HGNN,我们提出了当前偏好编码器和历史偏好编码器,分别捕获来自当前和历史会话的不同级别的用户偏好。为实现个性化建议,我们将用户当前偏好和历史利益的表示集成到生成最终用户首选项表示。三个真实数据集的广泛实验结果表明,我们的模型优于其他最先进的方法。
translated by 谷歌翻译